2025年9月15日中文

释放Python迭代的强大功能。一份面向全球开发者的综合指南，通过实用的真实世界示例，讲解如何使用__iter__和__next__方法实现自定义迭代器。

揭秘Python迭代器协议：深入理解 iter 与 next

迭代是编程中最基本的概念之一。在Python中，它是一种优雅而高效的机制，为从简单的for循环到复杂的数据处理管道等一切功能提供动力。当你遍历列表、从文件中读取行或处理数据库结果时，你每天都在使用它。但你是否曾想过底层发生了什么？Python是如何知道从这么多不同类型的对象中获取“下一个”项目的呢？

答案在于一个强大而优雅的设计模式——迭代器协议 (Iterator Protocol)。该协议是所有Python类序列对象通用的语言。通过理解和实现此协议，你可以创建自己的自定义对象，使其与Python的迭代工具完全兼容，从而使你的代码更具表现力、更节省内存，也更具“Pythonic”风格。

本综合指南将带你深入探讨迭代器协议。我们将揭示 `__iter__` 和 `__next__` 方法背后的魔力，阐明可迭代对象 (iterable) 和迭代器 (iterator) 之间的关键区别，并引导你从头开始构建自己的自定义迭代器。无论你是希望加深对Python内部原理理解的中级开发者，还是旨在设计更复杂API的专家，掌握迭代器协议都是你进阶之路上的关键一步。

“为何如此”：迭代的重要性与力量

在我们深入技术实现之前，首先必须理解迭代器协议为何如此重要。它的好处远不止是支持`for`循环。

内存效率与惰性求值

想象一下，你需要处理一个几GB大小的巨型日志文件。如果你试图将整个文件读入内存中的一个列表，很可能会耗尽系统资源。迭代器通过一种称为惰性求值 (lazy evaluation) 的概念完美地解决了这个问题。

迭代器不会一次性加载所有数据。相反，它只在被请求时才逐个生成或获取项目。它会维护一个内部状态来记住它在序列中的位置。这意味着你（理论上）可以用非常小且恒定的内存量来处理无限大的数据流。这与让你能够逐行读取大文件而不会使程序崩溃的原理是相同的。

整洁、可读的通用代码

迭代器协议为顺序访问提供了一个通用接口。因为列表、元组、字典、字符串、文件对象以及许多其他类型都遵循此协议，所以你可以使用相同的语法——`for`循环——来处理它们。这种统一性是Python可读性的基石。

看看这段代码：

代码：

my_list = [1, 2, 3]
for item in my_list:
print(item)

my_string = "abc"
for char in my_string:
print(char)

with open('my_file.txt', 'r') as f:
for line in f:
print(line)

`for`循环不关心它是在遍历一个整数列表、一个字符串，还是文件中的行。它只是向对象请求其迭代器，然后重复地向该迭代器请求下一个项目。这种抽象非常强大。

解构迭代器协议

该协议本身出奇地简单，仅由两个特殊方法定义，通常称为“dunder”（双下划线）方法：

`__iter__()`
`__next__()`

要完全掌握这些，我们必须首先理解两个相关但不同的概念之间的区别：可迭代对象 (iterable) 和 迭代器 (iterator)。

可迭代对象 vs. 迭代器：一个至关重要的区别

这通常是新手感到困惑的一点，但这个区别至关重要。

什么是可迭代对象 (Iterable)？

可迭代对象是任何可以被循环遍历的对象。它是你可以传递给内置函数`iter()`以获取迭代器的对象。从技术上讲，如果一个对象实现了`__iter__`方法，它就被认为是可迭代的。其`__iter__`方法的唯一目的就是返回一个迭代器对象。

内置可迭代对象的例子包括：

列表 (`[1, 2, 3]`)
元组 (`(1, 2, 3)`)
字符串 (`"hello"`)
字典 (`{'a': 1, 'b': 2}` - 遍历键)
集合 (`{1, 2, 3}`)
文件对象

你可以将可迭代对象看作一个容器或数据源。它本身不知道如何生成项目，但它知道如何创建一个能做到这点的对象：迭代器。

什么是迭代器 (Iterator)？

迭代器是在迭代过程中实际负责生成值的对象。它代表一个数据流。迭代器必须实现两个方法：

`__iter__()`：此方法应返回迭代器对象本身 (`self`)。这是必需的，这样迭代器也可以在期望可迭代对象的地方使用，例如在`for`循环中。
`__next__()`：此方法是迭代器的引擎。它返回序列中的下一个项目。当没有更多项目可返回时，它必须抛出`StopIteration`异常。这个异常不是错误；它是向循环结构发出的标准信号，表示迭代已完成。

迭代器的关键特征是：

维护状态： 迭代器会记住它在序列中的当前位置。
一次生成一个值： 通过`__next__`方法。
是可耗尽的： 一旦迭代器被完全消耗（即，它已经抛出`StopIteration`），它就变空了。你无法重置或重用它。要再次迭代，你必须回到原始的可迭代对象，并再次对其调用`iter()`以获取一个新的迭代器。

构建我们的第一个自定义迭代器：分步指南

理论虽好，但理解协议的最佳方式是亲手构建它。让我们创建一个简单的类作为计数器，从一个起始数字迭代到一个上限。

示例1：一个简单的计数器类

我们将创建一个名为`CountUpTo`的类。当你创建它的实例时，你会指定一个最大值，当你遍历它时，它将从1开始产生数字，直到那个最大值。

代码：

class CountUpTo:
    """一个从1计数到指定最大值的迭代器。"""

    def __init__(self, max_num):
        print("正在初始化 CountUpTo 对象...")
        self.max_num = max_num
        self.current = 0 # 这将存储状态
    def __iter__(self):
        print("调用 __iter__，返回 self...")
        # 该对象是其自身的迭代器，因此我们返回 self
        return self
    def __next__(self):
        print("调用 __next__...")
        if self.current < self.max_num:
            self.current += 1
            return self.current
        else:
            # 这是关键部分：发出我们已完成的信号。             print("抛出 StopIteration。")
            raise StopIteration
# 如何使用它 print("正在创建计数器对象...")
counter = CountUpTo(3)

print("\n开始 for 循环...")
for number in counter:
    print(f"For 循环接收到: {number}")

代码分解与解释

让我们分析一下`for`循环运行时会发生什么：

初始化：`counter = CountUpTo(3)`创建了我们类的一个实例。`__init__`方法运行，将`self.max_num`设为3，`self.current`设为0。我们对象的状态现在已初始化。
启动循环：当执行到`for number in counter:`这一行时，Python会在内部调用`iter(counter)`。
调用`__iter__`：`iter(counter)`的调用会触发我们`counter.__iter__()`方法的执行。从我们的代码中可以看到，此方法只是打印一条消息并返回`self`。这就告诉`for`循环：“你需要调用`__next__`的对象就是我！”
循环开始：现在`for`循环准备就绪。在每次迭代中，它都会对接收到的迭代器对象（即我们的`counter`对象）调用`next()`。
第一次调用`__next__`：`counter.__next__()`方法被调用。此时`self.current`为0，小于`self.max_num`(3)。代码将`self.current`递增到1并返回它。`for`循环将此值赋给`number`变量，并执行循环体 (`print(...)`)。
第二次调用`__next__`：循环继续。`__next__`再次被调用。`self.current`是1。它被递增到2并返回。
第三次调用`__next__`：`__next__`再次被调用。`self.current`是2。它被递增到3并返回。
最后一次调用`__next__`：`__next__`又被调用一次。现在`self.current`是3。条件`self.current < self.max_num`为假。`else`块被执行，并抛出`StopIteration`。
结束循环：`for`循环被设计用来捕获`StopIteration`异常。当它捕获到时，就知道迭代已结束，并会优雅地终止。程序继续执行循环之后的任何代码。

注意一个关键细节：如果你试图在同一个`counter`对象上再次运行`for`循环，它将不会工作。迭代器已耗尽。`self.current`已经是3，因此任何后续对`__next__`的调用都会立即抛出`StopIteration`。这是我们的对象本身就是其迭代器的后果。

高级迭代器概念与实际应用

简单的计数器是很好的学习工具，但迭代器协议的真正威力在于将其应用于更复杂、自定义的数据结构时。

组合可迭代对象与迭代器的问题

在我们的`CountUpTo`示例中，该类既是可迭代对象又是迭代器。这很简单，但有一个主要缺点：生成的迭代器是可耗尽的。一旦你遍历完它，它就结束了。

代码：

counter = CountUpTo(2)
print("第一次迭代:")
for num in counter: print(num) # 正常工作
print("\n第二次迭代:")
for num in counter: print(num) # 什么也不打印！

发生这种情况是因为状态 (`self.current`) 存储在对象本身上。在第一次循环之后，`self.current`变为2，任何进一步的`__next__`调用都只会抛出`StopIteration`。这种行为与标准的Python列表不同，列表可以被多次迭代。

一个更健壮的模式：分离可迭代对象与迭代器

为了创建像Python内置集合那样可重用的可迭代对象，最佳实践是分离这两个角色。容器对象将是可迭代对象，每次调用其`__iter__`方法时，它都会生成一个全新的迭代器对象。

让我们将示例重构为两个类：`Sentence`（可迭代对象）和`SentenceIterator`（迭代器）。

代码：

class SentenceIterator:
    """负责状态和生成值的迭代器。"""
    def __init__(self, words):
        self.words = words
        self.index = 0
    def __next__(self):
        try:
            word = self.words[self.index]
        except IndexError:
            raise StopIteration()
        self.index += 1
        return word
    def __iter__(self):
        # 迭代器也必须是可迭代的，返回自身。         return self
class Sentence:
    """可迭代的容器类。"""
    def __init__(self, text):
        # 容器持有数据。         self.words = text.split()
    def __iter__(self):
        # 每次调用__iter__时，它都会创建一个新的迭代器对象。         return SentenceIterator(self.words)
# 如何使用它 my_sentence = Sentence('This is a test')
print("第一次迭代:")
for word in my_sentence:
    print(word)
print("\n第二次迭代:")
for word in my_sentence:
    print(word)

现在，它的工作方式与列表完全一样！每次`for`循环开始时，它都会调用`my_sentence.__iter__()`，从而创建一个全新的、拥有自己状态 (`self.index = 0`) 的`SentenceIterator`实例。这允许对同一个`Sentence`对象进行多次独立的迭代。这种模式要健壮得多，也是Python自己的集合的实现方式。

示例：无限迭代器

迭代器不一定是有限的。它们可以代表一个无穷的数据序列。正是在这里，它们惰性的、一次一个的特性显示出巨大优势。让我们为斐波那契数列的无限序列创建一个迭代器。

代码：

class FibonacciIterator:
    """生成一个无限的斐波那契数列。"""
    def __init__(self):
        self.a, self.b = 0, 1

    def __iter__(self):
        return self

    def __next__(self):
        result = self.a
        self.a, self.b = self.b, self.a + self.b
        return result
# 如何使用它 - 注意：没有break会造成无限循环！
fib_gen = FibonacciIterator()

for i, num in enumerate(fib_gen):
    print(f"Fibonacci({i}): {num}")
    if i >= 10: # 我们必须提供一个停止条件         break

这个迭代器本身永远不会抛出`StopIteration`。调用代码有责任提供一个条件（如`break`语句）来终止循环。这种模式在数据流、事件循环和数值模拟中很常见。

Python生态系统中的迭代器协议

理解`__iter__`和`__next__`可以让你在Python中随处看到它们的影响。正是这个统一的协议，使得Python的众多特性能够无缝地协同工作。

for循环的真正工作原理

我们已经含蓄地讨论过这一点，但让我们明确地说明。当Python遇到这一行时：

`for item in my_iterable:`

它在幕后执行以下步骤：

它调用`iter(my_iterable)`来获取一个迭代器。这反过来又会调用`my_iterable.__iter__()`。我们称返回的对象为`iterator_obj`。
它进入一个无限的`while True`循环。
在循环内部，它调用`next(iterator_obj)`，这又会调用`iterator_obj.__next__()`。
如果`__next__`返回一个值，该值会被赋给`item`变量，然后执行`for`循环块内的代码。
如果`__next__`抛出`StopIteration`异常，`for`循环会捕获这个异常并跳出其内部的`while`循环。迭代完成。

推导式与生成器表达式

列表、集合和字典推导式都由迭代器协议提供支持。当你写下：

`squares = [x * x for x in range(10)]`

Python实际上是在对`range(10)`对象进行迭代，获取每个值，并执行表达式`x * x`来构建列表。对于生成器表达式也是如此，它更直接地使用了惰性迭代：

`lazy_squares = (x * x for x in range(1000000))`

这不会在内存中创建一个包含一百万个项的列表。它创建了一个迭代器（具体来说，是一个生成器对象），它会在你遍历它时逐一计算平方值。

生成器：创建迭代器的更简便方法

虽然创建一个带有`__iter__`和`__next__`的完整类能给你最大的控制权，但对于简单情况来说可能过于冗长。Python提供了一种更简洁的语法来创建迭代器：生成器 (generators)。

生成器是一个使用`yield`关键字的函数。当你调用一个生成器函数时，它不会运行代码。相反，它返回一个生成器对象，这是一个功能齐全的迭代器。

让我们把`CountUpTo`示例重写为一个生成器：

代码：

def count_up_to_generator(max_num):
    """一个从1 yield数字到max_num的生成器函数。"""
    print("生成器已启动...")
    current = 1
    while current <= max_num:
        yield current # 在这里暂停并返回一个值         current += 1
    print("生成器已结束。")
# 如何使用它
counter_gen = count_up_to_generator(3)
for number in counter_gen:
    print(f"For 循环接收到: {number}")

看看这有多简单！`yield`关键字是这里的魔法。当遇到`yield`时，函数的状态被冻结，值被发送给调用者，函数暂停。下次在生成器对象上调用`__next__`时，函数会从它离开的地方恢复执行，直到遇到另一个`yield`或函数结束。当函数结束时，`StopIteration`会自动为你抛出。

在底层，Python已经自动创建了一个带有`__iter__`和`__next__`方法的对象。虽然生成器通常是更实际的选择，但理解其底层协议对于调试、设计复杂系统以及领会Python核心机制的工作原理至关重要。

最佳实践与常见陷阱

在实现迭代器协议时，请牢记这些准则以避免常见错误。

最佳实践

分离可迭代对象和迭代器：对于任何应支持多次遍历的容器对象，始终在单独的类中实现迭代器。容器的`__iter__`方法每次都应返回迭代器类的一个新实例。
总是抛出`StopIteration`：`__next__`方法必须可靠地抛出`StopIteration`来表示结束。忘记这一点将导致无限循环。
迭代器应是可迭代的：迭代器的`__iter__`方法应始终返回`self`。这允许迭代器在任何期望可迭代对象的地方使用。
为求简洁，优先使用生成器：如果你的迭代器逻辑很简单，可以用单个函数表示，那么生成器几乎总是更清晰、更易读。当你需要将更复杂的状态或方法与迭代器对象本身关联时，才使用完整的迭代器类。

常见陷阱

可耗尽迭代器问题：如前所述，请注意当一个对象是其自身的迭代器时，它只能被使用一次。如果你需要多次迭代，你必须要么创建一个新实例，要么使用分离的可迭代/迭代器模式。
忘记状态：`__next__`方法必须修改迭代器的内部状态（例如，递增索引或推进指针）。如果状态没有更新，`__next__`将一遍又一遍地返回相同的值，很可能导致无限循环。
在迭代时修改集合：在迭代集合的同时对其进行修改（例如，在遍历列表的`for`循环内部删除列表项）可能导致不可预测的行为，如跳过项目或引发意外错误。如果需要修改原始集合，通常更安全的做法是遍历集合的副本。

结论

迭代器协议，凭借其简单的`__iter__`和`__next__`方法，是Python中迭代的基石。它证明了该语言的设计哲学：偏爱简单、一致的接口，以实现强大而复杂的行为。通过为顺序数据访问提供通用契约，该协议允许`for`循环、推导式和无数其他工具与任何选择使用其语言的对象无缝协作。

通过掌握此协议，你已解锁了创建自己的类序列对象的能力，这些对象在Python生态系统中是一等公民。你现在可以编写通过惰性处理数据而更节省内存的类，通过与标准Python语法干净地集成而更直观的类，并最终变得更强大。下次你写`for`循环时，花点时间欣赏一下在表面之下优雅上演的`__iter__`和`__next__`之舞。

揭秘Python迭代器协议：深入理解 __iter__ 与 __next__

“为何如此”：迭代的重要性与力量

内存效率与惰性求值

整洁、可读的通用代码

解构迭代器协议

可迭代对象 vs. 迭代器：一个至关重要的区别

什么是可迭代对象 (Iterable)？

什么是迭代器 (Iterator)？

构建我们的第一个自定义迭代器：分步指南

示例1：一个简单的计数器类

代码分解与解释

高级迭代器概念与实际应用

组合可迭代对象与迭代器的问题

一个更健壮的模式：分离可迭代对象与迭代器

示例：无限迭代器

Python生态系统中的迭代器协议

for循环的*真正*工作原理

推导式与生成器表达式

生成器：创建迭代器的更简便方法

最佳实践与常见陷阱

最佳实践

常见陷阱

结论

揭秘Python迭代器协议：深入理解 iter 与 next

for循环的真正工作原理